موجود

علم داده

علم داده

تعداد
قیمت: 153,000 تومان

علم داده مجموعه‌ای از اصول، تعاریف مسئله، الگوریتم‌ها و فرآیندهای استخراج الگوهای غیرقابل مشاهده و مفید مجموعه‌داده‌های بزرگ را در بر می‌گیرد. بسیاری از اصول علم داده در زمینه‌های مرتبط مانند یادگیری ماشین و داده‌کاوی توسعه یافتند. در واقع اصطلاحات علم داده، یادگیری ماشین و داده‌کاوی اغلب به جای یکدیگر به کار می‌روند. وجه اشتراک این زمینه‌ها تمرکز بر بهبود تصمیم‌گیری از طریق تجزیه و تحلیل داده‌هاست. با این وجود اگر چه علم داده از رشته‌های دیگر وام می‌گیرد اما دامنه گسترده‌تری راشامل می‌شود. یادگیری ماشین (ML)۱ بر طراحی و ارزیابی الگوریتم‌های استخراج الگوهای داده متمرکز است. داده‌کاوی۲ عموما با تجزیه و تحلیل داده‌های ساختار یافته سر و کار داشته و در بیشتر مواقع بر کاربردهای تجاری تاکید می‌کند. علم داده۳ علاوه بر در بر گرفتن تمامی این ملاحظات چالش‌های دیگری مانند دریافت، تصفیه و تبدیل داده‌های ساختار نیافته وب و رسانه‌های اجتماعی، استفاده از فناوری‌های کلان‌داده۴ به منظور ذخیره و پردازش مجموعه داده‌های بزرگ و ساختار نیافته و سوالات مربوط به اخلاق و مقررات داده‌ها را نیز در بر می‌گیرد.
با استفاده از علم داده می‌توان الگوهای متنوعی را استخراج کرد. برای مثال ممکن است بخواهیم الگوهایی را استخراج کنیم که به ما کمک کنند گروهی از مشتریان را شناسایی کنیم که رفتارها و سلایق مشابهی دارند. این امر در واژه‌نامه تجارت به‌عنوان تقسیم‌بندی مشتری۵ معروف است و در علم داده خوشه‌بندی۶ نامیده می‌شود. به عبارت دیگر ممکن است بخواهیم الگویی را استخراج کنیم که محصولاتی را شناسایی کند که اغلب با هم خریداری می‌شوند که در اصطلاح قانون وابستگی۷ نامیده می‌شود. یا ممکن است بخواهیم الگوهایی را استخراج کنیم که وقایع عجیب یا غیرطبیعی را شناسایی کنند از جمله مطالبات نادرست حق بیمه؛ رویه‌ای که به‌عنوان ناهنجاری شناخته می‌شود. در نهایت ممکن است بخواهیم الگوهایی را شناسایی کنیم که در طبقه‌بندی موضوعات به ما کمک کنند. به عنوان مثال قانون زیر نشان می‌دهد که الگوی طبقه‌بندی که از مجموعه داده‌های ایمیل استخراج شده است چگونه می‌تواند باشد: اگر ایمیلی حاوی عبارت «به راحتی درآمد کسب کنید» باشد احتمالا هرزنامه است. شناسایی این نوع قوانین طبقه‌بندی، به پیش‌بینی معروف است.
اگر متخصص انسانی به راحتی بتواند الگویی را در ذهن خود ایجاد نماید، این الگو ارزش این را ندارد که برای «یافتن آن» با استفاده از علم داده وقت صرف کرد
ممکن است اصلاح پیش‌بینی اقدام عجیبی به نظر برسد، زیرا این قانون پیش‌بینی نمی‌کند که در آینده چه اتفاقی خواهد افتاد: این ایمیل یک ایمیل اسپم است یا نیست. بنابراین، بهترین کار این است که به جای پیش‌بینی آینده به الگوهای پیش‌بینی ارزش گمشده یک ویژگی فکر کنیم. در این مثال پیش‌بینی کردیم که آیا این ایمیل از نظر ویژگی باید در «اسپم» قرار بگیرد یا خیر.
اگرچه می‌توانیم از علم داده برای استخراج انواع مختلفی از الگوها استفاده کنیم اما همواره درصدد هستیم که این الگوها غیرقابل مشاهده و مفید باشند. مثال طبقه‌بندی ایمیل در پاراگراف قبلی بسیار ساده و روشن بود و در صورتی که تنها قانون استخراج شده از علم داده باشد مایوس نمی‌شویم. برای مثال این قانون طبقه‌بندی ایمیل تنها یک ویژگی ایمیل را بررسی می‌کند: آیا این ایمیل حاوی عبارت «به راحتی درآمد کسب کنید» است؟ اگر متخصص انسانی به راحتی بتواند الگویی را در ذهن خود ایجاد نماید، این الگو ارزش این را ندارد که برای «یافتن آن» با استفاده از علم داده وقت صرف کرد. به طور کلی، علم داده زمانی مفید است که مثال‌های داده‌ای زیادی داشته باشیم و الگوها بسیار پیچیده‌تر از آن باشند که بتوان به‌طور دستی توسط انسان آن‌ها را ایجاد کرد. می‌توانیم مثال‌های داده‌ای بسیاری را تعریف کنیم که بیشتر از تعدادی هستند که یک متخصص انسانی بتواند به راحتی آن‌ها را بررسی نماید. با توجه به پیچیدگی الگوها باز هم می‌توانیم آن را نسبت به توانایی‌های انسانی تعریف کنیم. ما انسان‌ها در تعریف قوانینی که یک، دو یا حتی سه ویژگی (که به متغیر نیز معروف است) را بررسی می‌کنند نسبتا خوب عمل می‌کنیم اما وقتی به بیش از سه ویژگی بر می‌خوریم برای کنترل تعاملات بین آن‌ها با مشکل مواجه می‌شویم.

نظرات علم داده

نوشتن نظر

لطفا برای ثبت نظر وارد حساب خود شده یا ثبت نام نمایید.

مشخصات کتاب

نویسنده جان - دی کلهر - برندن تیرنی
مترجم امیر رضا تجلی
امیر علی رمدانی
امیر محمد رمدانی
ناشر شرکت چاپ و نشر بازرگانی
تعداد صفحات 217 صفحه
دسته بندی فناوری اطلاعات
تاریخ انتشار 1400
شابک 97896446
قیمت 153,000 تومان
زبان فارسی

فهرست مطالب


سخن مولف

هدف علم داده بهبود تصمیم‌گیری بر مبنای تصمیمات و بینش‌هایی است که از مجموعه‌داده‌های بزرگ استخراج شدند. علم داده به‌عنوان یک زمینه کاری، مجموعه‌ای از اصول، تعاریف مسئله، الگوریتم‌ها و فرآیندهای مربوط به استخراج الگوهای غیرقابل مشاهده و سودمند از مجموعه داده‌های بزرگ را در بر می‌گیرد. علم داده با رشته‌های داده‌کاوی و یادگیری ماشین ارتباط نزدیکی دارد اما نسبت به آن‌ها دارای حوزه کاربرد گسترده‌تری است. امروزه علم داده تصمیم‌گیری، تقریبا همه بخش‌های جوامع پیشرفته را تحت تاثیر قرار داده است. علم داده با روش‌های متعددی می‌تواند زندگی روزمره شما را تحت تاثیر قرار دهد که عبارت‌اند از: تعیین تبلیغات و آگهی‌هایی که به صورت آنلاین برای شما ارسال می‌شوند، نوع فیلم‌ها، کتاب‌ها و روابط دوستانه‌ای که به شما پیشنهاد می‌شوند، کدام ایمیل‌ها در پوشه اسپم قرار می‌گیرند، پیشنهادهایی که هنگام تمدید خدمات تلفن همراه دریافت می‌کنید، هزینه بیمه درمانی، ترتیب‌دهی و زمان‌بندی چراغ‌های راهنمایی منطقه سکونت شما، نحوه طراحی داروهای مورد نیازتان و اینکه پلیس کدام موقعیت‌های شهر را هدف‌گیری کرده است.
رشد روزافزون استفاده از علم داده در جوامع ناشی از ظهور کلان‌داده‌ها و رسانه‌های اجتماعی، تسریع در انجام محاسبات، کاهش شدید در ارزش حافظه رایانه و توسعه روش‌های کارآمدتر برای تجزیه و تحلیل و مدل‌سازی مانند یادگیری عمیق است. مجموع این عوامل بدین معناست که جمع‌آوری، ذخیره‌سازی و پردازش داده‌ها هرگز برای سازمان‌ها آسان نبوده. همچنین این نوآوری‌های تخصصی و کاربرد گسترده‌تر علم داده به این معناست که چالش‌های اخلاقی مربوط به استفاده از علم داده و محافظت از حریم خصوصی افراد تا این حد اساسی و مهم نبوده است. هدف این کتاب ارائه مقدمه‌ای در مورد علم داده است که عناصر ضروری این رشته را به‌طور دقیق و کامل پوشش می‌دهد و درک اصولی این رشته را فراهم می‌کند.
فصل ۱ کتاب رشته علم داده را معرفی کرده و تاریخچه کوتاهی از نحوه ایجاد و تکامل آن ارائه می‌دهد. همچنین در این فصل بررسی می‌شود که چرا امروزه علم داده مهم است و عوامل متعددی را بررسی می‌کند که موجب انتخاب آن می‌شود. این فصل با بررسی و شفاف‌سازی برخی از باورهای غلط و غیرعلمی به پایان می‌رسد. در فصل ۲ مفاهیم اساسی و پایه‌ای مربوط به داده‌ها مشخص می‌شوند. همچنین، در این فصل مراحل متعارف یک پروژه علم داده توصیف می‌شوند که عبارتند از: فهم تجاری، درک و شناخت داده‌ها، تهیه و آماده‌سازی داده‌ها، مدل‌سازی، ارزیابی و توسعه. در فصل ۳ بر زیرساخت‌های داده و چالش‌های ناشی از کلان‌داده و ادغام داده‌های موجود در منابع مختلف تمرکز شده است. یکی از جنبه‌های زیرساخت معمول داده که چالش‌برانگیز بوده، این است که داده‌های موجود در پایگاه‌های داده و انبارهای داده در سرورهایی ذخیره می‌شوند که از سرورهایی که برای تجزیه و تحلیل داده‌ها استفاده می‌شوند متفاوت هستند. بنابراین، هنگامی که روی مجموعه‌های کلان‌داده کار می‌شود زمان زیادی صرف می‌گردد تا داده‌هایی که در سرورهای پایگاه داده یا انبار داده وجود دارند به سرورهایی منتقل شوند که برای تجزیه و تحلیل داده‌ها و یادگیری ماشین استفاده می‌شوند. فصل ۳ با توصیف زیرساخت‌های معمول علم داده مربوط به سازمان و برخی راه‌حل‌های جدید برای چالش‌انتقال مجموعه‌های کلان‌داده در زیرساخت داده آغاز می‌شود که عبارتند از: استفاده از یادگیری ماشین موجود در پایگاه داده، استفاده از Hadoop برای ذخیره‌سازی و پردازش داده‌ها و توسعه سیستم‌های پایگاه داده ترکیبی که به‌طور یکنواخت از پایگاه داده متعارف و راه‌حل‌های Hadoop-مانند استفاده می‌کنند. در پایان این فصل چالش‌هایی برجسته می‌شوند که در فرآیند ادغام داده‌های سراسر سازمان در یک بازنمایی واحد وجود دارند که برای یادگیری ماشین مناسب است. فصل ۴ به معرفی رشته یادگیری ماشین می‌پردازد و برخی از محبوب‌ترین الگوریتم‌ها و مدل‌های یادگیری ماشین از جمله شبکه‌های عصبی، یادگیری عمیق و مدل‌های درخت تصمیم را توضیح می‌دهد. فصل ۵ بر ارتباط تخصص یادگیری ماشین با مسائل دنیای واقعی متمرکز است و طیفی از مسائل متعارف کسب و کار را بررسی کرده و نحوه حل این مسائل با استفاده از راه‌حل‌های یادگیری ماشین را شرح می‌دهد. فصل ۶ به پیامدهای اخلاقی علم داده، تحولات اخیر در تنظیم داده‌ها و برخی از روش‌های محاسباتی جدید برای حفظ حریم خصوصی افراد در فرآیند علم داده می‌پردازد. در نهایت فصل ۷ مباحثی را توصیف می‌کند که علم داده در آینده‌ای نزدیک تاثیر قابل توجهی بر آن‌ها خواهد داشت و اصولی را تعیین می‌کند که در موفقیت پروژه علم داده مهم هستند.

برچسب ها: مدیریت

© Copyright 2019 All Rights Reserved

طراحی سایت : نونگار پردازش

سبد خرید 0
مقایسه
0
فهرست مقایسه خالی است